Amazon Bedrock - Automatic Evaluation
benchmark dataset
Amazon Bedrock - Human Evaluation
Amazon Bedrock - 自動化評估FM的指標
ROUGE和BLEU是單純地用"字"是否一樣,BERTScore是用"語義"相似度
當使用者輸入至GenAI時,GenAI透過以上ROUGE、BLEU、BERTScore進行評估,經統整後再回feedback回模型進行retrain
評估模型的商業指標
在Bedrock的evaluations中,分為automatic與human
在automatic的部分又分為Programmatic與Model as a judge
Programmatic:僅使用模型本身與您選擇的評估指標來測量其效能
Model as a judge:利用一個預先訓練好的模型,依據您設定的評估指標,自動評估目標模型的回應品質
在Bedrock的evaluations中,分為automatic與human
在automatic的部分又分為
Programmatic:僅使用模型本身與選擇的評估指標來測量其效能
Model as a judge:利用一個預先訓練好的模型,依據設定的評估指標,自動評估目標模型的回應品質(用model去judge model )
human的部分又分為
AWS Managed work team:使用AWS的專業工作團隊,評估最多兩個模型的回應
Bring your own work team:自備的工作團隊,評估最多兩個模型的回應